Mirage (VLM)

https://www.arxiv.org/abs/2506.17218Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

https://gyazo.com/c53f2cebd5536b6522ee2638b3a96c0d

VLMが視覚的推論をしようとするとき、現状画像をテキストに置き換えてテキストとして考えるしかない

画像生成を組み込むと重すぎる

そこで画像は生成せず、潜在空間のlatent visual tokensで推論する

これ潜在空間がvaeと対応できるなら、推論(Reasoning)だけじゃなくてImageGPT見たいなタスクもできそうねmorisoba65536.icon